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摘要 : 


[目的 ] 解 决 长 尾 商 品 的 推荐 中 存在 的 样本 数据 偏 少 , 现 有 协同 过 滤 法 计算 量 大 , 性 能 难以 满 
足 需 求 的 问题 
[方法 ] 出 了 基于 GAN+XGBoost+LR 的 解决 方案 ， 通 过 协同 过 滤 寻 找 初始 样本 数据 ， 利 用 GAN 
生成 更 多 样本 数据 训练 XGBoost+LR 模型 ， 并 针对 不 同 模型 的 特点 指定 针对 性 的 训练 策略 。 
[结果 ] 该 方案 在 兼顾 性 能 和 精确 度 要 求 下 ， 可 以 提高 推荐 模型 的 鲁 棒 性 。 
[局 限 ]XGBoost 模型 承担 自动 化 特征 工程 能 力 有 限 。 
[结论 ] 基于 GAN+XGBoost+LR 的 个 性 化 推荐 方法 可 以 提高 长 尾 商 品 的 推荐 的 有 和 鲁 棒 性 。 
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Abstract: 

[Objective] Solve the problem that there are few sample data in the recommendation 
of long tail merchandise, the existing collaborative filtering method has a large 
amount of calculation, and the performance can not meet the needs. 

[Methods] A solution based on GAN+XGBoost+LR is presented. Initial sample data is 
searched through collaborative filtering, more sample data is generated by GAN to 
train XGBoost+LR model, and specific training strategies are specified according 
to the characteristics of different models. 

[Results] This scheme can improve the robustness of the recommended model with both 
performance and accuracy requirements. 

[Limitations]The XGBoost model has limited ability to undertake automated feature 
engineering. 

[Conclusions]Individual recommendation method based on GAN+XGBoost+LR can improve 
the robustness of long tail recommendation. 
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network; XGBoost; Long Tail Goods 


1 绪论 
电子 商务 商品 数量 的 无 限 性 ， 使 得 用 户 搜 索 自己 想 要 的 商品 变 得 愈加 困难 ， 


言 恩 过 载 现 象 使 得 用 户 不 得 不 花费 巨大 的 精力 从 海量 信息 中 进行 选择 中 。 推 荐 系 
统 是 解决 信息 过 载 的 常见 解决 方案 , 通过 学 习 用 户 历 史 行 为 偏好 主动 预测 用 户 对 
未 评分 或 反馈 的 物品 潜在 的 反应 ,通过 推荐 列表 等 形式 自动 化 、 个 性 化 地 推荐 给 
不 同 用 户 ， 从 而 帮助 他 们 更 快速 地 找到 需要 或 喜欢 的 物品 。 因 此 ， 如 何在 有 限 的 
资源 和 较 高 的 效率 条 件 下 完成 对 长 尾 商品 的 冷 启动 是 一 个 热点 问题 急 。 

在 个 性 化 推荐 方法 发 展 过 程 中 ， 商 品 的 冷 启 动 一 直 是 一 个 重要 的 问题 。 可 分 
为 基于 机 器 学 习 得 方法 和 基于 深度 学 习 得 方法 。 基 于 机 器 学 习 的 方法 又 可 以 分 为 
基于 相似 性 的 和 基于 模型 的 方法 : 基于 相似 性 的 方法 是 根据 用 户 或 物品 之 间 的 相 
似 性 进行 预测 ， 例 如 同一 个 作者 或 者 主题 的 书籍 ， 或 者 同一 地 区 的 男性 用 户 等 ; 
基于 模型 的 方法 则 是 从 用 户 对 物品 的 点 击 或 者 购买 行为 数据 构建 预测 模型 。 基 于 
深度 学 习 的 方法 则 是 利用 深度 学 习 的 强大 特征 提取 能 力 和 非 线性 拟 合 能 力 来 做 
推荐 B。 冷 启动 问题 包括 两 个 方面 : 新 物品 的 冷 启 动 和 新 用 户 的 冷 启动 。 对 于 新 
用 户 ,他 们 没 任何 或 者 几乎 没有 对 物品 的 历史 评分 信息 、 评论 信 息 等 等 历史 行为 
数据 ， 以 至 于 对 于 一 些 利用 用 户 的 历史 行为 来 构建 的 推荐 方法 , 它们 是 无 法 为 新 
用 户 推 荐 有 效 的 信息 〈 即 : 用户 冷 启动 ); 对 于 一 个 新 的 物品 ， 由 于 没有 评论 、 
浏览 、 交 易 、 点 击 、 评 分 等 行为 数据 ， 这 样 就 很 难 将 这 些 物品 推荐 给 对 它们 感 兴 
趣 的 用 户 ， 从 而 导致 物品 的 冷 启 动 问题 。 

针对 此 问题 ， 国 内 外 很 多 学 者 提出 了 解决 思路 。 例 如 ，Zahid 册 等 人 提出 基于 
邻 域 模型 中 使 用 的 物品 细节 的 归 一 化 技术 , 以 对 冷 启动 问题 的 用 户 参 与 或 用 户 喜 
好 进行 建 模 , 该 模型 利用 归 一 化 技术 , 将 新 物品 和 新 用 户 按 其 相关 标签 信息 进行 
排序 ， 并 将 这 些 信息 映射 到 一 个 相同 的 隐 舍 特征 因子 空间 ， 以 实现 在 用 户 和 物品 
的 基线 评分 上 进行 归 一 化 ， 以 帮助 在 少量 数据 的 情况 下 解决 冷 启 动 问题 ; 
Tahmasebib5l] 等 人 提出 了 一 种 基于 剖面 展开 技术 的 混合 推荐 方法 , 缓解 个 性 化 推荐 
系统 中 存在 的 新 用 户 冷 启动 问题 , 该 模型 首先 提出 一 种 机 制 通过 添加 一 些 额外 的 
评分 以 创建 一 个 比 原 来 更 密集 的 用 户 道具 评分 矩阵 , 并 为 目标 用 户 提供 进一步 评 
分 的 评分 配置 文件 以 缓解 推荐 系统 中 的 冷 启动 问题 ; Paledlg 等 人 提出 了 一 种 利用 
基于 社区 检测 的 交 蔡 最 小 二 乘 分 解 方法 ， 该 方法 利用 了 Louvain 算法 和 交 蔡 最 小 
二 乘 算法 的 优点 ， 并 采用 Louvain 算法 分 析 用 户 之 间 的 关系 ， 再 采用 交 蔡 最 小 二 
乘 算 法 预测 推荐 来 解决 冷 启 动 问题 .Yadav[D 等 人 提出 一 种 基于 链接 开放 数据 和 社 
交 网 络 特征 的 推荐 系统 方法 ， 该 方法 通过 构建 基于 链接 开放 数据 (Linked Open 
Data, LOD ) 协作 特征 和 基于 社交 网 络 的 特征 的 用 户 档 案 来 解决 纯 新 用 户 冷 启动 
问题 。 

总 体 上 来 说 , 其 解决 的 思路 分 为 两 类 , 一 类 是 挖掘 商品 或 用 户 之 间 的 关联 性 ， 
将 新 商品 同 现 有 商品 ， 新 用 户 和 现 有 用 户 关联 起 来 ,利用 现 有 的 推荐 模型 进行 推 
荐 ; 另 一 类 是 通过 用 户 的 社交 网 络 信息 、 商 品 的 标签 信息 等 第 三 方 数据 ， 丰 富 新 
商品 或 新 用 户 的 数据 ， 进 而 构建 预测 模型 。 本 文 针 对 长 尾 商品 的 冷 启动 问题 ， 提 
出 基于 GAN+XGBoost+LR 的 个 性 化 推荐 方法 。 


2 基于 GAN+XGBoost+LR 的 推荐 方法 设计 


2.1 设计 思路 

针对 长 尾 商 品 的 个 性 化 推荐 ， 常 见 的 方法 是 使 用 协同 过 滤 ， 首 先 对 商品 进行 
分 析 ， 通 过 打 标 签 、 分 类 等 方法 丰富 商品 信息 ， 而 后 进行 商品 的 协同 过 滤 找 出 相 
似 的 商品 ， 与 历史 的 购买 用 户 进行 关联 ， 而 后 进行 推荐 。 
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协同 过 滤 掉 方法 最 大 的 好 处 是 理论 简单 ， 易 于 实现 ， 但 面 对 长 尾 商 品 推荐 时 
存在 着 以 下 几 个 问题 : 

第 一 ， 资 源 需 求 高 。 长 尾 商品 最 大 的 特点 就 是 数量 多 ， 协 同 过 滤 算 法 需要 维 
护 一 个 巨大 商品 相似 度 和 矩阵 ， 对 内 存 和 算 力 的 要 求 成 几何 增长 。 

第 二 ， 模 型 更 新 缓慢 。 由 于 每 次 模型 更 新 需要 对 和 矩阵 内 所 有 商品 的 相似 度 进 
行 计算 , 其 计算 量 相当 惊人 , 面 对 实 时 型 要 求 日 渐 提 高 点 今天 , 已 不 能 满足 要 求 。 

第 三 , 冷 启动 效果 差 。 长 尾 商 品 的 信息 较 少 ,， 打 标签 、 分 类 等 手段 依赖 人 工 ， 
工作 量 大 ， 在 冷 启动 阶段 协同 过 滤 效 果 差 强人 意 。 

综 上 可 知 ， 长 尾 商品 的 个 性 化 推荐 的 要 求 有 三 个 : 一 是 资源 需求 不 要 太 高 ， 
二 是 能 更 新 速度 要 快 ， 三 是 能 比较 好 的 缓解 冷 启 动 问题 。 基 于 业界 成 功 的 
XGBoost+LR 模型 ， 本 文 提 出 利用 GAN+XGBoost+LR 的 解决 方案 。 

训练 模型 首先 要 解决 的 就 是 数据 问题 。 这 里 的 解决 方法 是 ， 启 动 前 理由 协同 
过 滤 找 出 相似 度 高 的 历史 商品 ， 以 该 数据 为 基础 利用 GAN 生产 更 多 样本 数据 进 
行 分 析 ; 在 商品 启动 后 ， 基 于 用 户 的 反馈 数据 利用 GAN 生产 更 多 样本 数据 ， 进 
行 模型 再 训练 。 

在 模型 选择 和 训练 策略 上 。 这 里 采用 了 XGBoost+LR 的 模型 ， 利 用 XGBoost 
进行 特征 工程 ， 利 用 LR 完成 最 后 的 CTR 值 输出 ， 两 个 模型 采用 不 同 的 训练 策 
略 ，XGBoost 模型 使 用 GAN 模型 生成 的 数据 进行 不 定期 在 线 更 新 ，LR 模型 利 
用 反馈 真实 数据 增 量 更 新 ， 定 期 对 GAN+XGBoostHLR 进行 离线 更 新 。 采 取 这 样 
的 策略 是 因为 LR 模型 训练 速度 最 快 ，XGBoost 次 之 ，GAN 最 慢 ， 为 了 兼顾 速 
度 和 精度 需要 采用 不 同 的 训练 策略 。 有 具体 算法 流程 如 图 1 所 示 : 
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XGBoost Ee 
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成 样本 
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品 依 吕 
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1 算法 流程 图 

在 整个 流程 中 , 需要 计算 资源 较 多 的 步骤 是 协同 过 滤 和 GAM 生产 样本 数据 ， 
其 中 协同 过 滤 仅 使 用 一 次 ，GAN 按照 需要 定期 使 用 ， 避 免 带 来 过 多 的 计算 压力 ; 
而 相对 较 慢 的 XBGoost 模型 则 次 用 了 不 定期 在 线 更 新 和 定期 离线 更 新 结合 的 方 
式 , 不 定期 在 线 更 新 主要 是 针对 模型 参数 的 微调 , 在 已 有 参数 基础 上 进行 上 下 浮 
动 微调 ;LR 模型 由 于 运算 速度 较 快 可 实时 使 用 真实 数据 进行 训练 ; 而 
GAN+XGBoost+LR 整个 模型 店 更 新 ， 则 根据 实际 情况 定期 进行 离线 训练 。 
2.2 算法 实现 

具体 算法 实现 基于 python 语言 ， 使 用 anaconda 软件 包 、scikt-learn 软件 包 和 
ydata-synthetic 软件 包 ， 利 用 anaconda 进行 数据 处 理 ，scikt-learn 软件 包 实 现 LR 
模型 ，pyxgboost 包 实 现 xgboost 模型 ，ydata-synthetic 软件 包 实 现 GAN 模型 : 
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XGBoost+LR 模型 实现 步骤: 
1. 读 取 数 据 集 数 据 为 df 


2. 按 照 最 大 最 小 值 进行 标准 化 并 分 割 位 训练 集 和 测试 集 


3. 用 训练 集 数据 数据 训练 XGBoost 决策 树 模型 
4. 将 训练 模型 店 叶 子 节 点 特征 导出 

5. 用 叶子 节点 特征 处 理 数 据 并 训练 LR 模型 
RNN 模型 进行 对 比 验 证 步 又 : 

定义 RNN 回归 模型 


def RNN regression(units): 


opt = Adam(name='AdamOpt') 
loss=MeanAbsoluteError(name="'MAE') 
model = Sequential() 
model.add(GRU(units=units, 
name=f'RNN_1°')) 
model.add(Dense(units=21, 
activation='sigmoid"' ,name=' OUT )) 
model.compile(optimizer=opt, loss=loss) 
return model 
ts real = RNN _ regression(12) 


early_stopping = EarlyStopping(monitor='val loss') 


real train=ts real.fit(x=X_stock train,y=y_stock train,validation dat 
a=(X_stock_ test,y_stock test),epochs=288,batch size=128,callbacks=[ea 


rly_stopping]) 

ts_synth = RNN regression(12) 

synth train = ts_synth.fit(x=X_synth train, 
y=y_synth train, 

validation data=(X_ stock test, Yy_ stock test), 
epochs=266， 

batch_size=128， 

callbacks=[early_stopping]) 


2.3 实验 环境 与 数据 


使 用 设备 为 个 人 PC 计算 机 ， 处 理 器 为 AMD Ryzen 5 2600X 3.60 GHz， 内 
存 32.0 GB，250GB SSD 固态 影片 ，HP GTX750Ti 4GB 显卡 。 数 据 采 用 阿里 云 
天 池 平 台 JCAI-18 阿里 妈妈 搜索 广告 转化 预测 中 第 一 赛季 的 A 榜 训 练 数据 
文件 名 为 round1 ijcai 18_train 20180301.txt, 文件 大 小 529 MB, 共有 478087 条 
数据 , 为 2018 年 9 月 17 日 至 2018 年 9 月 24 日 共 8 天 的 数据 。 数据 集 分 为 5 个 


表 ， 每 个 表 各 个 字段 的 解释 如 下 表 1 至 表 5。 
表 1: 基础 数据 表 


字段 解释 
instance id 样本 编号 ，Long 
is_trade 是 否 交 易 的 标记 位 ，Int 类 型 ; 取 值 是 0 或 者 1， 
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这 条 样本 最 终 产 生 交 易 ， 


item id 广告 商品 编号 ，Long 类 型 
user id 用 户 的 编号 ，Long 类 型 
context_id 上 下 文 信息 的 编号 ，Long 类 型 
shop_id 店铺 的 编写，Long 类 型 

表 2: 广告 商品 信息 表 


字段 
item id 
item category list 
item property list 
item brand id 
item city id 


item price level 


0 表示 没有 交易 


解释 


广告 商品 编号 ，Long 类 型 


广告 


广 


简 品 的 的 类 目 列 表 ，String 类 型 
广告 商品 的 属性 


生 襄 | 口 
后 癌 可 


告 商 品 


谣 


的 


器 
口 品 


列表 ，String 类 型 


牌 编号 ，Long 类 型 


的 城市 编写 ，Long 类 型 
广告 商品 的 价格 等 级 ，Int 类 型 ， 取 值 从 0 开始 ， 数 


值 越 大 表示 价格 越 高 


item sales level 广告 商品 的 销量 等 级 ，Int 类 型 ， 取 值 从 0 开始 ， 数 
值 越 大 表示 销量 越 大 
item collected level 广告 商品 被 收藏 次 数 的 等 级 ，Int 类 型 ， 取 值 从 0 开 
始 ， 数 值 越 大 表示 被 收藏 次 数 越 大 
item pv_level 广告 商品 被 展示 次 数 的 等 级 ，Int 类 型 ， 取 值 从 0 开 
台 ， 数 值 越 大 表示 被 展示 次 数 越 大 
表 3: 广告 商品 信息 表 
字段 解释 
user id j 户 的 编号 ，Long 类 型 
user gender id j 户 的 预测 性 别 编号 ，Int 类 型 ，0 表示 女性 用 


user age level 


user occupation id 


USer Star _ level 


户 ，1 表 示 男 性 用 


户 ，2 表示 家 庭 用 户 


j 户 的 预测 年 龄 等 级 ，Int 类 型 ， 数值 越 大 表示 
年 龄 越 大 

用 户 的 预测 职业 编号 ，Int 类 型 

j 户 的 星 级 编号 ，Int 类 型 ， 数 值 越 大 表示 用 户 
的 星 级 越 高 
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表 4: 上 下 文 信息 表 


字段 解释 
context id 上 下 文 信息 的 编号 ，Long 类 型 
context timestamp 广告 商品 的 展示 时 间 , Long 类 型 ; 取 值 是 以 秒 为 单位 的 U 


nix 时 间 戳 ， 以 1 天 为 单位 对 时 间 惟 进行 了 偏 移 


context page id 广告 商品 的 展示 页 面 编 号 ，Int 类 型 ， 取 值 从 1 开始 ， 依 
次 增加 ; 在 一 次 搜索 的 展示 结果 中 第 一 屏 的 编号 为 1， 血 
二 屏 的 编号 为 2 


避 


predict_category_prop 根据 查询 词 预测 的 类 目 属性 列表 ，String 类 型 ; propert 
erty y_B 取 值 为 -1， 表 示 预 测 的 第 二 个 类 目 category B 没 
有 对 应 的 预测 属性 

表 5: 店铺 信息 表 


Shop id 店铺 的 编号 ，Long 类 型 


shop review num leve ”店铺 的 评价 数量 等 级 ，Int 类 型 ; 取 值 从 0 开始 ， 数 值 越 
1 大 表示 评价 数量 越 多 


shop_review _ positive 店铺 的 好 评 率 ，Double 类 型 ， 取 值 在 0 到 1 之 间 ， 数 值 


_rate 越 大 表示 好 评 率 越 高 

shop_star_ level 店铺 的 星 级 编号 ，Int 类 型 ; 取 值 从 0 开始， 数值 越 大 表 
示 店 铺 的 星 级 越 高 

shop score service 店铺 的 服务 态度 评分 ，Double 类 型 ， 取 值 在 0 到 1 之 间 ， 
数值 越 大 表示 评分 越 高 


shop_score delivery 店铺 的 物流 服务 评分 ，Double 类 型 ， 取 值 在 0 到 1 之 间 ， 
数值 越 大 表示 评分 越 高 


tl 


shop_score descripti ”店铺 的 描述 相符 记 
on 数值 越 大 表示 评分 越 遍 
本 质 上 来 说 ， 这 个 数据 集 是 一 个 预测 CVR 的 问题 ， 进 一 步 对 item id 数据 进 
行 分 析 ， 计 算 每 个 item id 在 数据 中 出 现 的 次 数 ， 即 被 展示 的 次 数 ， 可 以 提现 该 
商品 的 热度 高 低 ， 按 照 次 数 由 高 到 低 排 序 后 绘制 折线 图 ， 如 图 2 所 示 : 


分 ，Double 类 型 ， 取 值 在 0 到 1 之 间 ， 
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item 计 数 
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2 item id 计数 分 布 
通过 以 上 图 标 可 知 大 量 的 item id 出 现 的 次 数 很 低 ， 符 合 长 尾 现象 ， 我 们 由 
高 到 低 的 计算 每 个 item id 出 现 次 数 占 总 次 数 多 百分比 , 并 同时 计算 累计 百分比 ， 
绘制 折线 ， 如 图 3 所 示 : 


item 球 计 百 分 比 
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80.00% 
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3 item id 累计 百 分 百 
如 上 两 图 可 知 , 该 数据 集中 的 商品 分 布 符合 长 尾 现象 , 进 过 进一步 统计 可 知 ， 
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排名 前 1460 位 的 商品 展示 次 数 共 有 381311 次 ， 即 14.49% 的 商品 展示 次 数 占 了 
总 数 79.75%， 商 品 冷 热 不 均 情况 显著 ， 冷 热 数据 的 分 界 点 在 66 次 ， 即 出 现 高 于 
66 次 的 为 热 数 据 , 低 于 66 次 的 为 冷 数 据 , 我 们 提取 这 部 分 冷 数据 作为 实验 数据 。 

这 部 分 数据 共有 96827 条 ,涉及 商品 数量 8615 个 ,平均 每 个 商品 展示 11.24 
次 ， 最 少 展示 1 次 ，count 详细 值 统计 如 图 4 所 示 : 


count 


count 8615.000000 
mean 11.239350 
std 14.540738 


min 1.000000 
25% 2.000000 
50% 4.000000 


75% 15.000000 
max 66.000000 


图 4 count 值 统 计 情 况 
2.4 实验 数据 分 析 和 处 理 

通过 前 面 的 统计 分 析 可 知 ，25% 的 商品 展示 次 数 为 1-2 次 ，50% 的 商品 展示 
次 数 为 1-4 次 ，75% 的 商品 展示 次 数 为 1-15 次 ，25% 的 商品 展示 次 数 高 于 15 次 ， 
发 生 交 易 的 样本 数 为 1595 个 ， 占 总 数 的 1.675%， 未 发 生 交 易 的 样本 数 为 95232 
个 ， 占 总 数 的 98.353% 。 由 于 本 文 的 重点 在 于 GAN 生成 的 数据 能 否 提升 
XGBoost+LR 在 CVR 预计 的 效果 ， 故 不 在 特征 工程 上 花 太 多 功夫 ， 稍 作 处 理 后 
使 用 XGBoostHLR 进行 模型 训练 ，logloss 值 是 0.072366， 下 面 我 们 尝试 使 用 基 
于 keras 的 GAN 生成 新 的 样本 数据 集 ， 实 现 对 现 有 数据 集 规模 的 扩充 。 

该 数据 集 数据 可 以 看 作 一 个 时 间 序 列 ， 这 里 采用 TimeGAN 模型 进行 训练 ， 
TimeGAN 认为 时 序数 据 应 该 有 两 种 特征 ， 第 一 个 是 静态 特征 ， 不 会 因为 时 间 而 
改变 的 特征 ， 例 如 本 文 所 用 数据 中 的 商品 价格 、 用 户 性 别 等 数据 ; 第 二 个 是 时 态 
特征 ， 该 特征 随时 间 而 改变 ， 例 如 生 商品 的 广告 展示 次 数 、 收 藏 等 数据 中。 由 于 
本 文 使 用 数据 正 负 样 本 存在 明显 的 不 平衡 性 , 为 了 提高 准确 性 , 用 正 负 样 本 分 别 
训练 TimeGAN 模型 生成 数据 和 真实 数据 进行 对 比 ， 并 通过 PCA“〈 主 成 分 分 析 ) 
和 tSNE〈t- 分 布 式 随机 邻居 和 仍 入 ) 可 视 化 数据 分 布 ， 然 后 分 别 用 生成 数据 和 真 
实数 据 训练 RNN 模型 ， 比 较 生 成 数据 和 真实 数据 训练 模型 的 差距 。 

(1) 正 样本 生成 数据 。 图 5 为 正 样本 的 PCA 和 t-SNE 可 视 化 散 点 对 比 图 ， 
灰色 点 为 真实 数据 ,红色 点 为 生成 的 数据 ， 图 6 为 生成 数据 与 真实 数据 折 现 对 比 
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5 下 样本 VS 正 样本 生成 数据 可 视 化 对 比 图 
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6 正 样本 VS 正 样 本 生成 数据 对 比 折线 图 
为 了 验证 生成 数据 和 真实 数据 在 模型 上 的 差异 ， 利 用 RNN 模型 进行 对 比 验 
证 。 比 较 指 标 主要 有 MSE ( 均 方 误差 ) 、MAE (平均 绝对 误差 ) 和 MSLE ( 均 
方 对 数 误 差 ) ， 为 了 保证 数据 可 靠 性 ， 使 用 同一 份 生 成 数据 反复 训练 RNN 模型 
十 轮 ， 求 均值 ， 结 果 如 表 6 所 示 : 
表 6: 正 样本 VS 正 样 本 生成 数据 模型 表现 


十 轮 均值 MSE MAE MSLE 
真实 数据 0. 0315846 0. 1090066 0. 0150415 
生成 数据 0. 0333358 0. 118209 0. 0157859 


性 能 差距 -5. 54% -8. 44% 一 4. 95% 
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由 此 表 可 知 ， 正 样本 生成 数据 在 实际 模型 中 和 直接 用 真实 数据 的 差距 较 小 ， 
性 能 损失 在 4.95%-8.44% 之 间 。 

(2) 负 样 本 生成 数据 。 负 样本 生成 数据 采用 和 正 样 本 一 样 的 方案 ， 这 里 不 
在 重复 描述 ， 为 了 适应 数据 集 大 小 的 变化 ， 仅 对 RNN 模型 的 batch size 和 epoch 
这 两 个 参数 进行 了 调整 ，batch size 参数 调整 为 512，epoch 调整 为 100。 图 7 为 
PCA 和 tSNE 可 视 化 图 ， 图 8 为 生成 数据 与 真实 数据 对 比 图 ， 表 7 为 模型 训练 


Validating synthetic vs real data diversity and distributions 


PCA results TSNE results 


Original 
Synthetic 


7 正 样本 VS 正 样本 生成 数据 可 视 化 对 比 图 


表 7: 正 样本 VS 正 样 本 生成 数据 模型 表现 


十 轮 均值 MSE MAE MSLE 

真实 数据 0. 02674975 0. 08859675 0. 012944125 
生成 数据 0. 030091625 0. 1031815 0. 01426 
性 能 差距 -12. 49% -16. 46% -10. 17% 
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图 8 正 样本 VS 正 样本 生成 数据 对 比 
通过 以 上 的 数据 可 视 化 和 模型 效果 对 比 实验 ， 可 知 GAN 生成 的 数据 和 真实 


数据 差距 较 小 ， 可 以 用 于 模型 实验 。 


2. 


5 实验 结 


将 上 一 步 生 成 的 数据 进行 整理 后 用 于 XGBoost+LR 模型 训练 ,将 生成 数据 和 


经 过 标准 化 处 理 后 的 真实 数据 合并 为 同一 个 数据 集 ( 生 成 数据 和 真实 数据 大 小 一 
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致 ), 进行 训练 和 检验 ， 和 之 前 仅 使 用 真实 数据 进行 对 比 , 具体 数据 如 表 8 所 示 。 
表 8: 真实 数据 VS 真实 数据 + 生成 数据 模型 表现 


真实 数据 真实 数据 + 生成 数据 性 能 提升 
logloss 0. 072366 0. 072177 0. 26% 
R2 0. 069294 0. 066981 3.34% 
MSE 0. 015079 0. 015116 -0. 25% 
MAE 0. 029819 0. 030563 -2. 50% 
MSLE 0. 007327 0. 00725 1. 05% 


通过 以 上 表格 可 以 看 出 , 使 用 生成 数据 可 以 改进 模型 的 性 能 以 及 和 鲁 棒 性 , 但 
昌 于 生成 数据 难以 模仿 生成 真实 数据 中 的 极 值 ， 在 一 些 指 标 上 出 现 了 性 能 损失 ， 
同时 ， 可 见 此 种 方式 更 适合 冷 局 动 的 初始 模型 训练 ， 上线 之 后 则 要 看 业务 实际 需 
求 使 用 。 


Tr 


3 总 结 与 展望 


本 文 在 总 结 现 有 个 性 化 推荐 方法 的 基础 上 ,结合 工程 实践 中 的 成 熟 经 验 , 提 
出 利用 基于 GAN+XGBoosttLR 的 个 性 化 推荐 方法 来 解决 长 尾 商 品 的 冷 启动 , 结 
合 针对 性 的 模型 训练 更 新 策略 , 在 兼顾 了 性 能 和 精确 度 要 求 的 前 提 下 提升 了 模型 
店 性 能 和 鲁 棒 性 。 下 一 步 的 研究 方向 是 进一步 深 控 深 度 学 习 方 法 的 使 用 ,利用 深 
度 学 习 模型 进一步 莹 代 XGBoost 模型 承担 自动 化 特征 工程 部 分 功能 ， 提 高 特征 
之 间 隐 含 关系 的 控 气 能 力 , 优化 GAN 模型 的 设计 ， 更 符合 数据 特征 的 训练 数据 ， 
进一步 提高 预测 精度 和 和 鲁 棒 性 。 
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